Inspired by the impressive performance of recent face image editing methods, several studies have been naturally proposed to extend these methods to the face video editing task. One of the main challenges here is temporal consistency among edited frames, which is still unresolved. To this end, we propose a novel face video editing framework based on diffusion autoencoders that can successfully extract the decomposed features - for the first time as a face video editing model - of identity and motion from a given video. This modeling allows us to edit the video by simply manipulating the temporally invariant feature to the desired direction for the consistency. Another unique strength of our model is that, since our model is based on diffusion models, it can satisfy both reconstruction and edit capabilities at the same time, and is robust to corner cases in wild face videos (e.g. occluded faces) unlike the existing GAN-based methods.
translated by 谷歌翻译
Most scanning LiDAR sensors generate a sequence of point clouds in real-time. While conventional 3D object detectors use a set of unordered LiDAR points acquired over a fixed time interval, recent studies have revealed that substantial performance improvement can be achieved by exploiting the spatio-temporal context present in a sequence of LiDAR point sets. In this paper, we propose a novel 3D object detection architecture, which can encode LiDAR point cloud sequences acquired by multiple successive scans. The encoding process of the point cloud sequence is performed on two different time scales. We first design a short-term motion-aware voxel encoding that captures the short-term temporal changes of point clouds driven by the motion of objects in each voxel. We also propose long-term motion-guided bird's eye view (BEV) feature enhancement that adaptively aligns and aggregates the BEV feature maps obtained by the short-term voxel encoding by utilizing the dynamic motion context inferred from the sequence of the feature maps. The experiments conducted on the public nuScenes benchmark demonstrate that the proposed 3D object detector offers significant improvements in performance compared to the baseline methods and that it sets a state-of-the-art performance for certain 3D object detection categories. Code is available at https://github.com/HYjhkoh/MGTANet.git
translated by 谷歌翻译
有条件图像生成的最新方法受益于密集的监督,例如分割标签图,以实现高保真性。但是,很少探索使用密集的监督进行无条件的图像生成。在这里,我们探讨了密集监督在无条件生成中的功效,找到生成器特征图可以替代成本昂贵的语义标签图。从我们的经验证据来看,我们提出了一种新的生成器引导的鉴别剂正则化(GGDR),其中生成器的特征地图监督了歧视者在无条件生成中具有丰富的语义表示。具体而言,我们采用了一个U-NET架构进行鉴别器,该体系结构经过训练,可以预测发电机特征图作为输入的伪造图像。关于Mulitple数据集的广泛实验表明,我们的GGDR始终在定量和定性方面提高基线方法的性能。代码可从https://github.com/naver-ai/ggdr获得
translated by 谷歌翻译
机器学习方法最近已用于求解微分方程和动态系统。这些方法已发展为一个新型的研究领域,称为科学机器学习,其中深层神经网络和统计学习等技术应用于应用数学的经典问题。由于神经网络提供了近似能力,因此在求解各种偏微分方程(PDE)时,通过机器学习和优化方法通过机器学习和优化方法实现了明显的性能。在本文中,我们开发了一种新颖的数值算法,该算法结合了机器学习和人工智能来解决PDE。特别是,我们基于Legendre-Galerkin神经网络提出了一种无监督的机器学习算法,以找到与不同类型PDE的解决方案的准确近似值。提出的神经网络应用于一般的1D和2D PDE,以及具有边界层行为的奇异扰动PDE。
translated by 谷歌翻译
我们提出了CPO,这是一种快速且强大的算法,该算法与可能包含更改的场景的3D点云相对于2D全景图。为了稳健地处理场景的变化,我们的方法偏离了传统的特征点匹配,并着重于全景图像提供的空间上下文。具体而言,我们建议使用得分图提出有效的颜色直方图生成和随后的鲁棒定位。通过利用球形投影的唯一模棱两可,我们提出了大量相机姿势的非常快的颜色直方图生成,而无需明确渲染所有候选姿势的图像。我们将全景云和点云的区域一致性作为2D/3D分数图,并使用它们来称量输入颜色值以进一步提高鲁棒性。加权颜色分布很快找到了良好的初始姿势,并实现了基于梯度的优化的稳定收敛。 CPO是轻量级的,在所有测试的场景中都能实现有效的本地化,尽管场景变化,重复性结构或无特征区域都显示出稳定的性能,这是带有透视摄像头视觉定位的典型挑战。
translated by 谷歌翻译
图像合成中的评估指标起着测量生成模型的性能的关键作用。但是,大多数指标主要集中于图像保真度。现有的多样性指标是通过比较分布来得出的,因此它们无法量化每个生成图像的多样性或稀有程度。在这项工作中,我们提出了一个新的评估度量,称为“稀有分数”,以测量通过生成模型合成的每个图像的稀有性。我们首先表明经验观察表明,共同样品彼此接近,并且在特征空间最近的邻居距离处,稀有的样本彼此遥远。然后,我们使用我们的指标来证明可以有效比较不同生成模型产生稀有图像的程度。我们还提出了一种比较共享相同概念(例如Celeba-HQ和FFHQ)的数据集之间的稀有度的方法。最后,我们分析了在特征空间的不同设计中的指标的使用,以更好地了解特征空间和产生的稀疏图像之间的关系。代码将在网上公开用于研究社区。
translated by 谷歌翻译
在本文中,我们提出了一种基于相机和激光雷达传感器的3D对象检测和跟踪的新的联合对象检测和跟踪(Jodt)框架。所提出的方法称为3D Depectrack,使得检测器和跟踪器能够协作以产生相机和LIDAR数据的时空表示,然后执行3D对象检测和跟踪。检测器通过通过相机和激光乐融合获得的空间特征的加权时间聚集构建时空特征。然后,检测器使用从Roadklet的信息重新配置初始检测结果,从而保持到先前的时间步长。基于由探测器产生的时空特征,跟踪器使用图形神经网络(GNN)将检测到的对象与先前跟踪的对象相关联。我们通过基于规则的边缘修剪和关注的边缘门控的组合设计了一个完全连接的GNN,它利用空间和时间对象上下文来提高跟踪性能。在基准和NUSCENES基准上进行的实验表明,所提出的3D Depectrack在基线方法上的检测和跟踪性能方面实现了显着的改进,并通过检测器和跟踪器之间的协作实现现有方法的最新性能。
translated by 谷歌翻译
在生成的对抗网络中,改进鉴别器是生成性能的关键组件之一。由于图像分类器偏向纹理和脱扎,提高了准确性,我们调查1)如果判别者被偏见,而且2)如果脱位鉴别者将提高发电表现。实际上,我们发现实证证据证明鉴别者对图像的风格(\ equeg。,纹理和颜色)敏感。作为一个补救措施,我们提出了功能统计混合正常化(FSMR),鼓励鉴别者的预测不变于输入图像的样式。具体地,我们在鉴别者的特征空间中生成原始的混合特征和参考图像,并且我们应用正则化,使得混合特征的预测与原始图像的预测一致。我们进行了广泛的实验,以证明我们的正则化导致对风格的敏感性降低,一致地提高了九个数据集上各种GAN架构的性能。此外,将FSMR添加到最近提出的基于增强的GaN方法进一步提高了图像质量。代码将在线公开提供研究界。
translated by 谷歌翻译
gan中潜在空间的分离特性的发现促使许多研究找到了语义上有意义的方向。在本文中,我们建议解开特性与潜在空间的几何形状密切相关。在这方面,我们提出了一种基于局部几何形状在gan的中间潜在空间上找到语义因素的方法的无监督方法。直觉上,我们提出的方法称为局部基础,发现基本潜在变量附近的潜在空间的主要变化。实验结果表明,局部主变异对应于语义分解,并沿着它横穿它为图像遍历提供了强大的鲁棒性。此外,我们为在潜在空间(尤其是stylegan2的W-Space)中找到全球遍历方向的成功有限的解释。我们表明,W-Space通过比较当地的几何形状,通过Grassmannian歧管上的度量进行比较,通过比较当地的几何形状。全球扭曲意味着潜在空间在全球范围内不妥善调整,因此全球遍历方向必将显示出有限的成功。
translated by 谷歌翻译
Many recent works on understanding deep learning try to quantify how much individual data instances influence the optimization and generalization of a model, either by analyzing the behavior of the model during training or by measuring the performance gap of the model when the instance is removed from the dataset. Such approaches reveal characteristics and importance of individual instances, which may provide useful information in diagnosing and improving deep learning. However, most of the existing works on data valuation require actual training of a model, which often demands high-computational cost. In this paper, we provide a training-free data valuation score, called complexity-gap score, which is a data-centric score to quantify the influence of individual instances in generalization of two-layer overparameterized neural networks. The proposed score can quantify irregularity of the instances and measure how much each data instance contributes in the total movement of the network parameters during training. We theoretically analyze and empirically demonstrate the effectiveness of the complexity-gap score in finding 'irregular or mislabeled' data instances, and also provide applications of the score in analyzing datasets and diagnosing training dynamics.
translated by 谷歌翻译